Mundo

Uma via visual no cérebro pode fazer mais do que reconhecer objetos
Uma nova pesquisa usando modelos de visão computacional sugere que o 'fluxo ventral' do cérebro pode ser mais versátil do que se pensava anteriormente.
Por Anne Trafton - 19/04/2025


Os modelos foram treinados com base em um conjunto de dados de imagens sintéticas semelhantes às mostradas na imagem, com objetos como chaleiras ou calculadoras sobrepostos em diferentes fundos. Os pesquisadores treinaram o modelo para identificar uma ou mais características espaciais de um objeto, incluindo rotação, localização e distância. Créditos: Imagem: Cortesia dos pesquisadores


Quando a informação visual entra no cérebro, ela percorre duas vias que processam diferentes aspectos da informação recebida. Há décadas, cientistas levantam a hipótese de que uma dessas vias, o fluxo visual ventral, é responsável pelo reconhecimento de objetos e que pode ter sido otimizada pela evolução para fazer exatamente isso.

De acordo com isso, na última década, cientistas do MIT descobriram que, quando modelos computacionais da anatomia do fluxo ventral são otimizados para resolver a tarefa de reconhecimento de objetos, eles são preditores notavelmente bons das atividades neurais no fluxo ventral.

No entanto, em um novo estudo, pesquisadores do MIT demonstraram que, ao treinar esses tipos de modelos em tarefas espaciais, os modelos resultantes também são bons preditores das atividades neurais do fluxo ventral. Isso sugere que o fluxo ventral pode não ser otimizado exclusivamente para o reconhecimento de objetos.

“Isso deixa em aberto a questão sobre para que o fluxo ventral está sendo otimizado. Acredito que a perspectiva dominante em nossa área é que o fluxo ventral é otimizado para reconhecimento de objetos, mas este estudo oferece uma nova perspectiva de que o fluxo ventral também pode ser otimizado para tarefas espaciais”, afirma Yudi Xie, estudante de pós-graduação do MIT.

Xie é o autor principal do estudo, que será apresentado na Conferência Internacional sobre Representações de Aprendizagem. Outros autores do artigo incluem Weichen Huang, aluno visitante do programa do Instituto de Pesquisa Científica do MIT; Esther Alter, engenheira de software do MIT Quest for Intelligence; Jeremy Schwartz, membro da equipe técnica de pesquisa patrocinada; Joshua Tenenbaum, professor de ciências cognitivas e do cérebro; e James DiCarlo, Professor Peter de Florez de Ciências Cognitivas e do Cérebro, diretor do Quest for Intelligence e membro do Instituto McGovern de Pesquisa do Cérebro do MIT.

Além do reconhecimento de objetos

Quando olhamos para um objeto, nosso sistema visual não apenas o identifica, mas também determina outras características, como sua localização, sua distância de nós e sua orientação no espaço. Desde o início da década de 1980, neurocientistas têm levantado a hipótese de que o sistema visual dos primatas se divide em duas vias: a via ventral, que realiza tarefas de reconhecimento de objetos, e a via dorsal, que processa características relacionadas à localização espacial.

Na última década, pesquisadores trabalharam para modelar o fluxo ventral usando um tipo de modelo de aprendizado profundo conhecido como rede neural convolucional (CNN). Os pesquisadores podem treinar esses modelos para realizar tarefas de reconhecimento de objetos, alimentando-os com conjuntos de dados contendo milhares de imagens, juntamente com rótulos de categorias que as descrevem.

As versões de última geração dessas CNNs apresentam altas taxas de sucesso na categorização de imagens. Além disso, pesquisadores descobriram que as ativações internas dos modelos são muito semelhantes às atividades dos neurônios que processam informações visuais no fluxo ventral. Além disso, quanto mais semelhantes esses modelos forem ao fluxo ventral, melhor será seu desempenho em tarefas de reconhecimento de objetos. Isso levou muitos pesquisadores a levantar a hipótese de que a função dominante do fluxo ventral é o reconhecimento de objetos.

No entanto, estudos experimentais, especialmente um estudo do laboratório DiCarlo em 2016, descobriram que o fluxo ventral parece codificar também características espaciais. Essas características incluem o tamanho do objeto, sua orientação (o quanto ele é rotacionado) e sua localização dentro do campo de visão. Com base nesses estudos, a equipe do MIT buscou investigar se o fluxo ventral poderia desempenhar funções adicionais além do reconhecimento de objetos.

“Nossa questão central neste projeto foi: é possível pensarmos no fluxo ventral como sendo otimizado para realizar essas tarefas espaciais em vez de apenas tarefas de categorização?”, diz Xie.

Para testar essa hipótese, os pesquisadores treinaram uma CNN para identificar uma ou mais características espaciais de um objeto, incluindo rotação, localização e distância. Para treinar os modelos, eles criaram um novo conjunto de dados de imagens sintéticas. Essas imagens mostram objetos como chaleiras ou calculadoras sobrepostos em diferentes fundos, em locais e orientações que são rotulados para ajudar o modelo a aprendê-los.

Os pesquisadores descobriram que as CNNs treinadas em apenas uma dessas tarefas espaciais mostraram um alto nível de “neuroalinhamento” com o fluxo ventral — muito semelhante aos níveis observados em modelos de CNN treinados em reconhecimento de objetos.

Os pesquisadores medem o neuroalinhamento usando uma técnica desenvolvida pelo laboratório de DiCarlo, que envolve pedir aos modelos, uma vez treinados, que prevejam a atividade neural que uma determinada imagem geraria no cérebro. Os pesquisadores descobriram que quanto melhor o desempenho dos modelos na tarefa espacial para a qual haviam sido treinados, maior o neuroalinhamento que eles apresentavam.

“Acredito que não podemos presumir que o fluxo ventral esteja apenas realizando a categorização de objetos, porque muitas dessas outras funções, como tarefas espaciais, também podem levar a essa forte correlação entre o neuroalinhamento dos modelos e seu desempenho”, diz Xie. “Nossa conclusão é que é possível otimizar por meio da categorização ou realizando essas tarefas espaciais, e ambas fornecem um modelo semelhante ao fluxo ventral, com base em nossas métricas atuais para avaliar o neuroalinhamento.”

Comparando modelos

Os pesquisadores então investigaram por que essas duas abordagens — treinamento para reconhecimento de objetos e treinamento para características espaciais — levaram a graus semelhantes de neuroalinhamento. Para isso, realizaram uma análise conhecida como alinhamento de kernel centralizado (CKA), que lhes permite medir o grau de similaridade entre representações em diferentes CNNs. Essa análise mostrou que, nas camadas iniciais e intermediárias dos modelos, as representações que os modelos aprendem são quase indistinguíveis.

“Nessas camadas iniciais, essencialmente não é possível diferenciar esses modelos apenas observando suas representações”, diz Xie. “Parece que eles aprendem alguma representação muito semelhante ou unificada nas camadas iniciais e intermediárias, e nos estágios posteriores divergem para suportar tarefas diferentes.”

Os pesquisadores levantam a hipótese de que, mesmo quando os modelos são treinados para analisar apenas uma característica, eles também levam em consideração características "não-alvo" — aquelas para as quais não foram treinados. Quando os objetos apresentam maior variabilidade em características não-alvo, os modelos tendem a aprender representações mais semelhantes às aprendidas por modelos treinados em outras tarefas. Isso sugere que os modelos estão usando todas as informações disponíveis, o que pode resultar em modelos diferentes apresentando representações semelhantes, afirmam os pesquisadores.

“Na verdade, uma maior variabilidade não-alvo ajuda o modelo a aprender uma representação melhor, em vez de aprender uma representação que os ignora”, diz Xie. “É possível que os modelos, embora treinados em um alvo, estejam aprendendo simultaneamente outras coisas devido à variabilidade dessas características não-alvo.”

Em trabalhos futuros, os pesquisadores esperam desenvolver novas maneiras de comparar diferentes modelos, na esperança de aprender mais sobre como cada um desenvolve representações internas de objetos com base nas diferenças nas tarefas e nos dados de treinamento.

"Ainda pode haver pequenas diferenças entre esses modelos, embora nossa forma atual de medir a similaridade desses modelos com o cérebro nos diga que eles estão em um nível muito semelhante. Isso sugere que talvez ainda haja algum trabalho a ser feito para aprimorar a forma como podemos comparar o modelo com o cérebro, para que possamos entender melhor para que exatamente o fluxo ventral é otimizado", diz Xie.

A pesquisa foi financiada pela Semiconductor Research Corporation e pela Agência de Projetos de Pesquisa Avançada de Defesa dos EUA.

 

.
.

Leia mais a seguir